21 テキスト処理(Text Processing)

SourceCharacter SyntaxCharacter

Alternative[?U, ?N] Term[?U, ?N]

Term[U, N] ::

Assertion[?U, ?N]

Atom[?U, ?N]

Atom[?U, ?N] Quantifier

Assertion[U, N] ::

(?=Disjunction[?U, ?N] )

(?!Disjunction[?U, ?N] )

(?<=Disjunction[?U, ?N] )

(?<!Disjunction[?U, ?N] )

Quantifier ::

{DecimalDigits ,}

{DecimalDigits ,DecimalDigits }

Atom[U, N] ::

PatternCharacter

\AtomEscape[?U, ?N]

CharacterClass[?U]

(GroupSpecifier[?U] Disjunction[?U, ?N] )

(?:Disjunction[?U, ?N] )

SyntaxCharacter :: どれかひとつ

^$\.*+?()[]{}|

PatternCharacter ::

AtomEscape[U, N] ::

DecimalEscape

CharacterClassEscape[?U]

CharacterEscape[?U]

[+N]kGroupName[?U]

CharacterEscape[U] ::

ControlEscape

cControlLetter

0[lookahead ∉ DecimalDigit ]

HexEscapeSequence

RegExpUnicodeEscapeSequence[?U]

IdentityEscape[?U]

ControlEscape :: どれかひとつ

fnrtv

ControlLetter :: どれかひとつ

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ

GroupSpecifier[U] ::

?GroupName[?U]

GroupName[U] ::

<RegExpIdentifierName[?U] >

RegExpIdentifierName[U] ::

RegExpIdentifierStart[?U]

RegExpIdentifierName[?U] RegExpIdentifierPart[?U]

RegExpIdentifierStart[U] ::

UnicodeIDStart

\RegExpUnicodeEscapeSequence[+U]

[~U]UnicodeLeadSurrogate UnicodeTrailSurrogate

RegExpIdentifierPart[U] ::

UnicodeIDContinue

\RegExpUnicodeEscapeSequence[+U]

[~U]UnicodeLeadSurrogate UnicodeTrailSurrogate

<ZWNJ>

<ZWJ>

RegExpUnicodeEscapeSequence[U] ::

[+U]uLeadSurrogate \uTrailSurrogate

[+U]uLeadSurrogate

[+U]uTrailSurrogate

[+U]uNonSurrogate

[~U]uHex4Digits

[+U]u{CodePoint }

UnicodeLeadSurrogate ::

範囲内の任意のUnicodeコードポイント

UnicodeTrailSurrogate

範囲内の任意のUnicodeコードポイント

u LeadSurrogate との対応があいまいな \u TrailSurrogateは、対応する \u TrailSurrogate がない最も近い u LeadSurrogate に関連付けられるものとします。

LeadSurrogate ::

Hex4Digits Hex4Digits の SV が 0xD800 から 0xDBFF の範囲内

TrailSurrogate ::

Hex4Digits Hex4Digits の SV が 0xDC00 から 0xDFFF の範囲内

NonSurrogate ::

Hex4Digits Hex4Digits の SV が 0xD800から0xDFFFの範囲外

IdentityEscape[U] ::

[+U]SyntaxCharacter

[+U]/

[~U]SourceCharacter UnicodeIDContinue

NonZeroDigit DecimalDigitsopt [lookahead ∉ DecimalDigit ]

CharacterClassEscape[U] ::

[+U]p{UnicodePropertyValueExpression }

[+U]P{UnicodePropertyValueExpression }

UnicodePropertyName =UnicodePropertyValue

LoneUnicodePropertyNameOrValue

UnicodePropertyName ::

UnicodePropertyNameCharacters

UnicodePropertyNameCharacters ::

UnicodePropertyNameCharacter UnicodePropertyNameCharactersopt

UnicodePropertyValue ::

UnicodePropertyValueCharacters

LoneUnicodePropertyNameOrValue ::

UnicodePropertyValueCharacters

UnicodePropertyValueCharacters ::

UnicodePropertyValueCharacter UnicodePropertyValueCharactersopt

UnicodePropertyValueCharacter ::

UnicodePropertyNameCharacter

DecimalDigit

UnicodePropertyNameCharacter ::

ControlLetter

CharacterClass[U] ::

[[lookahead ≠ ^]ClassRanges[?U] ]

[^ClassRanges[?U] ]

ClassRanges[U] ::

NonemptyClassRanges[?U]

NonemptyClassRanges[U] ::

ClassAtom[?U]

ClassAtom[?U] NonemptyClassRangesNoDash[?U]

ClassAtom[?U] -ClassAtom[?U] ClassRanges[?U]

NonemptyClassRangesNoDash[U] ::

ClassAtom[?U]

ClassAtomNoDash[?U] NonemptyClassRangesNoDash[?U]

ClassAtomNoDash[?U] -ClassAtom[?U] ClassRanges[?U]

ClassAtom[U] ::

ClassAtomNoDash[?U]

ClassAtomNoDash[U] ::

SourceCharacter \ または ] または -

\ClassEscape[?U]

ClassEscape[U] ::

[+U]-

CharacterClassEscape[?U]

CharacterEscape[?U]

21.2.1.1 静的セマンティクス：早期エラー(Static Semantics: Early Errors)

Pattern ::

Disjunction

NcapturingParens ≧ 2³² - 1 なら構文エラー
Patternに、RegExpIdentifierNameと同じStringValueを持つ複数のGroupSpecifierが含まれている場合、構文エラー

{DecimalDigits ,DecimalDigits }

最初の DecimalDigits の MV が2番目の DecimalDigits　の MV より大きいなら、構文エラー

kGroupName

Patternに、RegExpIdentifierNameを持つGroupSpecifierが含まれておらず、そのStringValueがこのプロダクションのGroupNameのRegExpIdentifierNameのStringValueと等しい場合は構文エラー

DecimalEscape

DecimalEscapeのCapturingGroupNumberがNcapturingParens（21.2.2.1）より大きいなら、構文エラー

ClassAtom -ClassAtom ClassRanges

最初のClassAtomのIsCharacterClassがtrueであるか、2番目のClassAtomのIsCharacterClassがtrueの場合、構文エラー
最初のClassAtomのIsCharacterClassがfalseで、2番目のClassAtomのIsCharacterClassがfalseで、最初のClassAtomのCharacterValueが2番目のClassAtomのCharacterValueより大きい場合、構文エラー

ClassAtomNoDash -ClassAtom ClassRanges

ClassAtomNoDashのIsCharacterClassがtrue、またはClassAtomのIsCharacterClassがtrueの場合は、構文エラー
ClassAtomNoDashのIsCharacterClassがfalseで、ClassAtomのIsCharacterClassがfalseで、ClassAtomNoDashのCharacterValueがClassAtomのCharacterValueより大きい場合、構文エラー

RegExpIdentifierStart[U] ::

\RegExpUnicodeEscapeSequence[?U]

RegExpUnicodeEscapeSequenceのCharacterValueが、"$" と "_" のコードポイント値、またはUnicodeIDStartレキシカル文法プロダクションと一致するコードポイントでない場合は、構文エラー

RegExpIdentifierStart[U] ::

UnicodeLeadSurrogate UnicodeTrailSurrogate

UnicodeLeadSurrogateとUnicodeTrailSurrogateがそれぞれ一致する2つのコードポイントでUTF16DecodeSurrogatePairを実行した結果が、UnicodeIDStartレキシカル文法プロダクションと一致しない場合は構文エラー

RegExpIdentifierPart[U] ::

\RegExpUnicodeEscapeSequence[?U]

RegExpUnicodeEscapeSequenceのCharacterValueが "$"、 "_"、、のコードポイント値、またはUnicodeIDContinueレキシカル文法プロダクションと一致するコードポイントでない場合は、構文エラー

RegExpIdentifierPart[U] ::

UnicodeLeadSurrogate UnicodeTrailSurrogate

UnicodeLeadSurrogateとUnicodeTrailSurrogateがそれぞれ一致する2つのコードポイントでUTF16DecodeSurrogatePairを実行した結果が、UnicodeIDContinueレキシカル文法プロダクションと一致しない場合は構文エラー

UnicodePropertyName =UnicodePropertyValue

UnicodePropertyNameのSourceTextであるUnicodeコードポイントのリストが、表55の「プロパティ名とエイリアス」列にリストされているUnicodeプロパティ名またはプロパティエイリアスであるUnicodeコードポイントのリストと同一でない場合、構文エラー
UnicodePropertyValueのSourceTextであるUnicodeコードポイントのリストが、対応する表の表57または表58の「プロパティ値とエイリアス」列でリストされた UnicodePropertyNameのSourceTextによって指定されたUnicodeプロパティまたはプロパティエイリアスの値または値エイリアスであるUnicodeコードポイントのリストと同一でない場合、構文エラー

LoneUnicodePropertyNameOrValue

LoneUnicodePropertyNameOrValueのSourceTextであるUnicodeコードポイントのリストが、表57の「プロパティ値とエイリアス」列にリストされているUnicode一般カテゴリまたは一般カテゴリエイリアス、または表56の「プロパティ名とエイリアス」列にリストされているバイナリプロパティまたはバイナリプロパティエイリアスであるUnicodeコードポイントのリストと同一でない場合、構文エラー

21.2.1.2 静的セマンティクス(Static Semantics): CapturingGroupNumber

NonZeroDigit

NonZeroDigit の MV の数値を返す

NonZeroDigit DecimalDigits

code points in DecimalDigits のコードポイントの数学的整数値を n とする
( NonZeroDigit の MV × 10ⁿ + DecimalDigits の MV ) の数値　を返す

「NonZeroDigitのMV」と「DecimalDigitsのMV」の定義は11.8.3にあります。

21.2.1.3 静的セマンティクス(Static Semantics): IsCharacterClass

SourceCharacter \ または ] または -

CharacterEscape

false を返す

CharacterClassEscape

true を返す

21.2.1.4 静的セマンティクス(Static Semantics): CharacterValue

コードポイント値 U+002D (HYPHEN-MINUS) を返す

SourceCharacter \ または ] または -

SourceCharacter に一致するコードポイントを ch とする
コードポイント値 ch を返す

コードポイント値 U+0008 (BACKSPACE) を返す

コードポイント値 U+002D (HYPHEN-MINUS) を返す

ControlEscape

表54に従ってコードポイント値を返す

表54: ControlEscapeコードポイント値
ControlEscape	コードポイント値	コードポイント	ユニコード名	シンボル
t	9	U+0009	CHARACTER TABULATION	<HT>
n	10	U+000A	LINE FEED (LF)	<LF>
v	11	U+000B	LINE TABULATION	<VT>
f	12	U+000C	FORM FEED (FF)	<FF>
r	13	U+000D	CARRIAGE RETURN (CR)	<CR>

cControlLetter

ControlLetter に一致するコードポイントを ch とする
ch のコードポイント値を i とする
i を32で割った余りを返す

0[lookahead ∉ DecimalDigit ]

コードポイント値 U+0000 (NULL) を返す

\0は文字を表し、その後に10進数を続けることはできません。

HexEscapeSequence

HexEscapeSequence の SV のコードユニットの数値を返す

uLeadSurrogate \uTrailSurrogate

LeadSurrogate の CharacterValue を lead とする
TrailSurrogate の CharacterValue を trail とする
UTF16DecodeSurrogatePair(lead, trail) を cp とする
コードポイント値 cp を返す

uLeadSurrogate

LeadSurrogate の CharacterValue を返す

uTrailSurrogate

TrailSurrogate の CharacterValue を返す

uNonSurrogate

NonSurrogate の CharacterValue を返す

uHex4Digits

Hex4Digits の MV の数値を返す

u{CodePoint }

CodePoint の MV の数値を返す

HexDigits の MV の数値を返す

UnicodePropertyNameCharacters ::

IdentityEscape

IdentityEscape に一致するコードポイントを ch とする
コードポイント値 ch を返す

21.2.1.5 静的セマンティクス(Static Semantics): SourceText

UnicodePropertyNameCharacter UnicodePropertyNameCharactersopt

UnicodePropertyValueCharacters ::

UnicodePropertyValueCharacter UnicodePropertyValueCharactersopt

プロダクションに一致するソーステキスト内のUnicodeコードポイントのリストをソーステキスト順に返す

21.2.1.6 静的セマンティクス(Static Semantics): StringValue

RegExpIdentifierName[U] ::

RegExpIdentifierStart[?U]

RegExpIdentifierName[?U] RegExpIdentifierPart[?U]

RegExpIdentifierName に一致するソーステキストを idText とする
idText内の\ RegExpUnicodeEscapeSequence を、RegExpUnicodeEscapeSequence で表されるコードポイントに置き換えた結果を idTextUnescaped とする
! UTF16Encode(idTextUnescaped) を返す

21.2.2 パターンセマンティクス(Pattern Semantics)

正規表現パターンは、以下に説明するプロセスで抽象クロージャに変換されます。実装では、結果が同じであるという条件で、この仕様よりも効率的なアルゴリズムを使用することをお勧めします。抽象クロージャは、RegExpオブジェクトの[[RegExpMatcher]]内部スロットの値として使用されます。

フラグにuが含まれているかどうかで、Patternは、BMPパターンまたはUnicodeパターンのいずれかになります。 BMPパターンは、Basic Multilingual Planeの範囲内のUnicodeコードポイントである16ビット値のシーケンスで構成されている文字列と一致します。 Unicodeパターンは、UTF-16を使用してエンコードされたUnicodeコードポイントで構成されている文字列と一致します。 BMPパターンの動作を説明では、「文字」は単一の16ビットUnicode BMP コードポイントを意味します。 Unicodeパターンでは、「文字」はUTF-16でエンコードされたコードポイント（6.1.4）を意味します。どちらの場合も、「文字値」とは、対応するエンコードされていないコードポイントの数値を意味します。

Patternの構文とセマンティクスは、PatternのソースコードがSourceCharacter値のリストであるかのように定義されます。各SourceCharacterはUnicodeコードポイントに対応します。 BMPパターンに非BMP SourceCharacter
が含まれている場合、パターン全体がUTF-16を使用してエンコードされ、そのエンコードの個々のコードユニットがリストの要素として使用されます。

例：ソーステキスト上パターンを単一の非BMP文字 U+1D11E（MUSICAL SYMBOL G CLEF）とする。

Unicodeパターンとして解釈されると、単一のコードポイント0x1D11Eで構成される単一の要素（文字）リストになります。ただし、BMPパターンとして解釈されるため、最初にUTF-16でエンコードされ、コードユニット0xD834と0xDD1Eで構成される2要素のリストが生成されます。

パターンは、非BMP文字がUTF-16でエンコードされたECMAScript文字列値としてRegExpコンストラクターに渡されます。たとえば、文字列値として表される単一文字のMUSICAL SYMBOL G CLEFパターンは、要素がコードユニット0xD834および0xDD1Eである長さ2の文字列です。したがって、2つのパターン文字で構成されるBMPパターンとして文字列を処理するために、文字列をさらに変換する必要はありません。ただし、Unicodeパターンとして処理するには、UTF16DecodeSurrogatePairを使用して、単一のパターン文字であるコードポイントU+1D11Eで構成されるリストを作成する必要があります。

実装上では、実際にはUTF-16との間でそのような変換を実行しない場合があります。しかし、この仕様のセマンティクスでは、パターンマッチングの結果において、このような変換が実行された状態である必要があります。

21.2.2.1 表記(Notation)

以下の説明では、次の変数を使用しています。

Input：正規表現パターンと一致する文字列のすべての文字を順番に含むリストです。各文字は、関連するパターンの種類に応じて、コードユニットまたはコードポイントのいずれかになります。 Input[n]という表記は、Inputのn番目の文字を意味します。nの範囲は0からInputLength-1までです。
InputLength：Inputの文字数です。
NcapturingParens：パターン内の左側をキャプチャする括弧の総数（つまり、Atom :: ( GroupSpecifier Disjunction
) 解析ノードの総数）です。左をキャプチャする括弧は、任意の（Atom :: ( GroupSpecifier Disjunction) の終端記号) プロダクションと一致するパターン文字です。
DotAll：RegExpオブジェクトの[[OriginalFlags]]内部スロットに"s"が含まれている場合はtrue、それ以外の場合はfalseです。
IgnoreCase：RegExpオブジェクトの[[OriginalFlags]]内部スロットに"i"が含まれている場合はtrue、それ以外の場合はfalseです。
Multiline：正規表現オブジェクトの[[OriginalFlags]]内部スロットに"m"が含まれている場合はtrue、それ以外の場合はfalseです。
Unicode：RegExpオブジェクトの[[OriginalFlags]]内部スロットに"u"が含まれている場合はtrue、それ以外の場合はfalseです。

また、次の内部データ構造を使用しています。

CharSet：Unicodeフラグの状態に応じて、コードユニットまたはコードポイントのいずれかの数学的な文字セットです。「すべての文字」とは、Unicodeの状態に応じて、すべてのコードユニット値またはすべてのコードポイント値のいずれかを意味します。
State：順序のあるペア(endIndex,captures)です。endIndexは整数、capturesはNcapturingParens値のリストです。Stateは、正規表現マッチングアルゴリズムで部分一致状態を表すために使用されます。 endIndexは、パターンがこれまでに一致した最後の入力文字のインデックスに1を加えたものです。capturesは括弧をキャプチャした結果を保持します。キャプチャのn番目の要素は、取得された値を表すリストです。ただし、キャプチャ未取得時はundefinedです。バックトラックのため、マッチング処理中は複数のStateが使用されている可能性があります。
MatchResult：一致が失敗したことを示すState、または特別なトークンのfailureのどちらかです。
Continuation：1つのState引数を取り、結果としてMatchResultを返す抽象クロージャです。 Continuationは、State引数で指定された中間状態から開始して、パターンの残りの部分（クロージャーのキャプチャされた値で指定）をInputと照合します。一致した場合、Continuationは到達した最終Stateを返します。一致がしなかった場合、Continuationはfailureを返します。
Matcher：StateとContinuationの2つの引数を取り、MatchResultの結果を返す抽象クロージャです。State引数で指定された中間状態から開始して、パターンの中央のサブパターン（クロージャーのキャプチャされた値で指定）を入力と照合します。引数Continuationは、パターンの残りの部分と一致するクロージャです。パターンのサブパターンを照合して新しいStateを取得後、Matcherはその新しいStateでContinuationを呼び出して、パターンの残りの部分も一致するかどうかをテストします。可能であれば、MatcherはContinuationによって返されたStateを返します。そうでない場合、Matcherは選択ポイントでさまざまな選択を試み、成功するかすべての可能性が尽きるまでContinuationを繰り返し呼び出します。

21.2.2.2 パターン(Pattern)

次のプロダクションは、下記のアルゴリズムで評価します。

Pattern ::

Disjunction

Matcherm を取得するために、引数directionとして+1を使用してDisjunctionを評価する
mをキャプチャし、パラメータ(str,index)で呼び出されると次の手順を実行する新しい抽象クロージャを返す
1. Assert: Type(str) は String型
2. Assert: ! IsNonNegativeInteger(index) は true で index ≦ strの長さ
3. Unicode が true なら、! UTF16DecodeString(str) のコードポイントのシーケンスで構成されるリストを Input とする。それ以外なら、strの要素であるコードユニットのシーケンスで構成されるリストを Input とする。Inputは、21.2.2のアルゴリズム全体で使用される。 Inputの各要素は文字と見なされる
4. Input の文字数を InputLength とする。この変数は21.2.2のアルゴリズム全体で使用される
5. strの要素indexから取得した文字のInputへのインデックスを listIndex とする
6. 何もキャプチャせず、呼び出されたときに次の手順を実行するパラメータ(y)を持つ新しいContinuationを c とする
  1. Assert: y は State
  2. y を返す
7. NcapturingParensのundefined値のリストを cap とする。NcapturingParensから1のインデックスが付けられる
8. State (listIndex, cap) を x とする
9. m(x, c) を呼び出し、結果を返す

パターンは、抽象クロージャ値に対して評価（"compiles"）します。次にRegExpBuiltinExecは、このプロシージャを文字列と文字列内のオフセットに適用して、文字列内のそのオフセットからパターンが一致するかどうかを判断します。一致する場合は、キャプチャする括弧の値を決定します。 21.2.2のアルゴリズムは、パターンをコンパイルするとSyntaxError例外がスローされるように設計されています。一方、パターンが正常にコンパイルされ、結果の抽象クロージャを適用して文字列内の一致を見つけると、例外をスローできません（メモリ不足などのどこでも発生する可能性のあるホスト定義の例外を除く）。

21.2.2.3 Disjunction

引数 direction を使用。

次のプロダクションは、以下のアルゴリズムで評価します。

Disjunction ::

Alternative

引数directionを使用してAlternativeを評価し、Matcher m を取得する
m を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Disjunction ::

Alternative |Disjunction

引数directionを使用してAlternativeを評価し、Matcher m1 を取得する
引数directionを使用してDisjunctionを評価し、Matcher m2 を取得する
m1とm2をキャプチャし、パラメータ(x,c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. m1(x, c) をコールし、その結果を r とする
4. r が failure でないなら、 r を返す
5. m2(x, c) をコールし、その結果を返す

| 正規表現演算子は、2つの選択肢を分離します。パターンは最初に左側のAlternativeと一致するか検証します（その後に正規表現の続きが続きます）。失敗した場合は、右側のDisjunctionと一致するか検証します（正規表現の続きが続きます）。左側のAlternative、右側のDisjunction、および続きにすべて選択ポイントがある場合、左側の選択肢の次の選択肢に進む前に、後続のすべての選択肢が試されます。左側のAlternativeの選択肢がなくなった場合、左側のAlternativeの代わりに右側のDisjunctionが試行されます。 | によってスキップされたパターン内のキャプチャ括弧は、文字列ではなくundefined値を生成します。

例えば、次のようなコードがあるとします。

/a|ab/.exec("abc")

この結果は、"ab" ではなく"a" です。

また、次のようなコードがあるとします。

/((a)|(ab))((c)|(bc))/.exec("abc")

これは、次のような配列を返します。

["abc", "a", "a", undefined, "bc", undefined, "bc"]

次のようには、なりません。

["abc", "ab", undefined, "ab", "c", "c", undefined]

2つの選択肢の検証順序は、direction値と無関係です。

21.2.2.4 Alternative

引数 direction を使用。

次のプロダクションは、以下のアルゴリズムで評価します。

Alternative ::

何もキャプチャせず、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. c(x) をコールし、その結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Alternative ::

Alternative Term

引数directionを使用してAlternative を評価し、Matcher m1を取得する
引数directionを使用してTerm を評価し、Matcher m2を取得する
direction が +1 と等しいなら、
1. m1 と m2 をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
  1. Assert: x は State
  2. Assert: c は Continuation
  3. c と m2 をキャプチャし、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
    1. Assert: y は State
    2. m2(y, c) をコールし、その結果を返す
  4. m1(x, d) をコールし、その結果を返す
4. と異なるなら、
1. Assert: direction は -1 と等しい
2. m1 と m2 をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
  1. Assert: x はState
  2. Assert: c はContinuation
  3. c と m1 をキャプチャし、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
    1. Assert: y はState
    2. m1(y, c) をコールし、その結果を返す
  4. m2(x, d) をコールし、その結果を返す

連続するTermは、Inputの連続する部分を同時に一致させようとします。 directionが+1で、左のAlternative、右のTerm、および正規表現の続編のすべてに選択ポイントがある場合、続編のすべての選択肢は、右側のTermの次の選択肢に進む前に試行され、右側のTermのすべての選択肢は、左側のAlternativeの次の選択肢に進む前に試行されます。 directionが-1の場合、AlternativeとTermの評価順序が逆になります。

21.2.2.5 Term

引数 direction を使用。

次のプロダクションは、以下のアルゴリズムで評価します。

Term ::

Assertion

次のように評価します。

Assertion を評価した結果であるMatcherを返す

結果のMatcherはdirectionに依存しません。

次のプロダクションは、以下のアルゴリズムで評価します。

Term ::

Atom

引数directionでAtomを評価した結果であるMatcherを返す

次のプロダクションは、以下のアルゴリズムで評価します。

Term ::

Atom Quantifier

引数directionを使用してAtom を評価し、Matcher mを取得する
Quantifierを評価して、整数min、整数（または∞）max、およびブール型greedyの3つの結果を取得する
Assert: max が有限なら、 max は min 以上
Termの左側にある正規表現全体の左側をキャプチャする括弧の数を、parenIndexとする。これは、この用語の前またはそれを囲むAtom :: (GroupSpecifier Disjunction )解析ノードの総数
Atomの左側をキャプチャする括弧の数をparenCountとする。これは、Atomで囲まれたAtom :: (GroupSpecifier Disjunction )解析ノードの総数
m と min と max と greedy と parenIndex と parenCount をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. RepeatMatcher(m, min, max, greedy, x, c, parenIndex, parenCount) をコールし、その結果を返す

21.2.2.5.1 ランタイムセマンティクス(Runtime Semantics): RepeatMatcher ( m, min, max, greedy, x, c, parenIndex, parenCount )

抽象演算RepeatMatcherは、Matcher m、整数 min、整数（または∞）max、ブール greedy、State x、Continuationc 、整数 parenIndex、整数 parenCount の8つのパラメーターを取り、次の手順を実行します。：

max がゼロなら、 c(x) を返す
m と min と max と greedy と x と c と parenIndex と parenCount をキャプチャし、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
1. Assert: y は State
2. min がゼロで y の endIndex が x の endIndex と等しいなら、 failure を返す
3. min がゼロならゼロを、異なるなら min - 1 を min2 とする
4. max が ∞ なら、 ∞を、異なるなら max - 1 を max2 とする
5. RepeatMatcher(m, min2, max2, greedy, y, c, parenIndex, parenCount) をコールし、その結果を返す
x の captures リストのコピーを cap とする
parenIndex ＜ k and k ≦ parenIndex + parenCount の条件を満たす全ての整数 x について、 undefined を cap[k] にセットする
x の endIndex を e とする
State値 (e, cap) を xr とする
min がゼロでないなら、 m(xr, d) を返す
greedy が false なら、
1. c(x) をコールし、その結果を z とする
2. z が failure でないなら、 z を返す
3. m(xr, d) をコールし、その結果を返す
m(xr, d) をコールし、その結果を z とする
z が failure でないなら、 z を返す
c(x) をコールし、その結果を返す

Atomとそれに続くQuantifierは、Quantifierで指定された回数繰り返されます。 Quantifierが、貪欲でない(Non-greedy)場合、Atomパターンは、後続と一致している間、可能な限り繰り返されます。貪欲(greedy)である場合、Atomパターンは、後続が一致している間、可能な限り繰り返されます。一致する入力文字シーケンスではなく、Atomパターンが繰り返されます。そのため、Atomの異なる繰り返しは、異なる入力部分文字列に一致する可能性があります。

Atomと正規表現の後続すべてに選択ポイントがある場合、Atomは最初に可能な限り多くの（貪欲でない場合は少ない）回数一致します。後続のすべての選択肢は、Atomの最後の繰り返しで次の選択肢に進む前に試行されます。 Atomの最後（n番目）の繰り返しのすべての選択は、Atomの最後から2番目（n-1）回目の繰り返しの次の選択に進む前に試行されます。その時点で、Atomの繰り返しが多かれ少なかれ可能になることが判明する可能性があります。これらは、Atomの（n-1）回目の繰り返しで次の選択肢に進む前に（ここでも、できるだけ少ないか、できるだけ多くから始めて）使い果たされます。

例：

/a[a-z]{2,4}/.exec("abcdefghi")

上の例は、"abced" を返します。

/a[a-z]{2,4}?/.exec("abcdefghi")

上の例は、"abc" を返します。

例：

/(aa|aabaac|ba|b|c)*/.exec("aabaac")

上の例は選択ポイントの順番で、次の配列を返します。

["aaba", "ba"]

次のようにはなりません。

["aabaac", "aabaac"]
["aabaac", "c"]

上記の選択ポイントの順序を使用して、2つの数値（1進表記で表される）の最大公約数を計算する正規表現を記述できます。次の例では、10と15の公約数を計算します。

"aaaaaaaaaa,aaaaaaaaaaaaaaa".replace(/^(a+)\1*,\1+$/, "$1")

これは、最大公約数を1進表記"aaaaa"で返します。

RepeatMatcherのステップ4は、Atomが繰り返されるたびにAtomのキャプチャをクリアします。正規表現でその動作を確認できます

/(z)((a+)?(b+)?(c))*/.exec("zaacbbbcac")

上の例は、配列を返します。

["zaacbbbcac", "z", "ac", "a", undefined, "c"]

次のようにはなりません。

["zaacbbbcac", "z", "ac", "a", "bbb", "c"]

これは、最も外側の*を繰り返すたびに、定量化されたAtomに含まれるすべてのキャプチャされた文字列がクリアされるためです。この場合、2、3、4、および5の番号が付けられたキャプチャ文字列が含まれます。

RepeatMatcherのステップ2.aにより、最小繰り返し数が満たされると、空の文字シーケンスに一致するAtomの拡張は、それ以上の繰り返しとは見なされません。これにより、正規表現エンジンが次のようなパターンで無限ループに陥るのを防ぎます。

例：

/(a*)*/.exec("b")

もっと複雑な例：

/(a*)b\1+/.exec("baaaac")

これは、次の配列を返します。

["b", ""]

21.2.2.6 Assertion

次のプロダクションは、以下のアルゴリズムで評価します。

何もキャプチャせず、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x の endIndex を e とする
4. e がゼロまたは Multiline が true で、 Input[e - 1] が LineTerminator の一つなら、
  1. c(x) をコールし、その結果を返す
5. failure を返す

パターンでyフラグが使用されている場合でも、^は常に入力の先頭、またはMultilineがtrueの場合、行の先頭でのみ一致します。

次のプロダクションは、以下のアルゴリズムで評価します。

何もキャプチャせず、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x の endIndex を e とする
4. e が InputLength と等しい、または Multiline が true で、 Input[e] が LineTerminator の一つなら、
  1. c(x) をコールし、その結果を返す
5. failure を返す

次のプロダクションは、以下のアルゴリズムで評価します。

何もキャプチャせず、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x の endIndex を e とする
4. IsWordChar(e - 1) をコールし、その結果（真偽値）を a とする
5. IsWordChar(e) をコールし、その結果（真偽値）を b とする
6. a が true で、 b が false または a が false で b が true なら、
  1. c(x) をコールし、その結果を返す
7. failure を返す

次のプロダクションは、以下のアルゴリズムで評価します。

何もキャプチャせず、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x の endIndex を e とする
4. IsWordChar(e - 1) をコールし、その結果（真偽値）を a とする
5. IsWordChar(e) をコールし、その結果（真偽値）を b とする
6. a が true で、 b が true または a が false で b が false なら、
  1. c(x) をコールし、その結果を返す
7. failure を返す

次のプロダクションは、以下のアルゴリズムで評価します。

(?=Disjunction )

引数 direction として +1 を使用して Disjunctionを評価し、Matcherを取得する
m をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. 何もキャプチャせず、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
  1. Assert: y は State
  2. y を返す
4. m(x, d) をコールし、その結果を r とする
5. r が failure なら、 failure を返す
6. r の State を y とする
7. y の captures リストを cap とする
8. x の endIndex を xe とする
9. State値 (xe, cap) を z とする
10. c(z) をコールし、その結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

(?!Disjunction )

引数 direction として +1 を使用して Disjunction を評価し、 Matcher m を取得する
m をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. 何もキャプチャせず、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
  1. Assert: y は State
  2. y を返す
4. m(x, d) をコールし、その結果を r とする
5. r が failure でないなら、 failure を返す
6. c(x) をコールし、その結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

(?＜=Disjunction )

引数 direction として -1 を使用し Disjunction を評価して Matcher m を取得する
m をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. 何もキャプチャせず、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
  1. Assert: y は State
  2. y を返す
4. m(x, d) をコールし、その結果を r とする
5. r が failure なら、 failure を返す
6. r の State を y とする
7. y の captures リストを cap とする
8. x の endIndex を xe とする
9. State値 (xe, cap) を z とする
10. c(z) をコールし、その結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

(?＜!Disjunction )

引数 direction として -1 を使用し Disjunction を評価して Matcher m を取得する
m をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. 何もキャプチャせず、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
  1. Assert: y は State
  2. y を返す
4. m(x, d) をコールし、その結果を r とする
5. r が failure でないなら、 failure を返す
6. c(x) をコールし、その結果を返す

21.2.2.6.1 ランタイムセマンティクス(Runtime Semantics): WordCharacters ( )

抽象操作WordCharacters は、次の手順を実行します。

次の63文字を含む文字セットを A をとする
a b c d e f g h i j k l m n o p q r s t u v w x y z
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9 _
empty セットを U とする
Canonicalize(c) が、A内にあるが、cが、A内にないという条件を満たす全ての c について c を U に追加する
Assert: Unicode と IgnoreCase の両方が true でない限り、U は empty
セット U の文字をセット A に追加する
A を返す

21.2.2.6.2 ランタイムセマンティクス(Runtime Semantics): IsWordChar ( e )

抽象操作IsWordCharは、整数パラメーターeを受け取り、次の手順を実行します。

e が -1 または e が InputLength なら、 false を返す
Input[e] を c とする
! WordCharacters() の結果を wordChars とする
c が wordChars 内にあるなら、 true を返す
false を返す

21.2.2.7 Quantifier

次のプロダクションは、以下のアルゴリズムで評価します。

Quantifier ::

QuantifierPrefix

QuantifierPrefix を評価して、整数 min と整数（または∞）maxの2つの結果を取得する
min、max、true の3つの結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Quantifier ::

QuantifierPrefix ?

QuantifierPrefix を評価して、整数 min と整数（または∞）maxの2つの結果を取得する
min、max、false の3つの結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

2つの結果、0 と ∞ を返す

次のプロダクションは、以下のアルゴリズムで評価します。

2つの結果、 1 と ∞ を返す

次のプロダクションは、以下のアルゴリズムで評価します。

2つの結果、 0 and 1 を返す

次のプロダクションは、以下のアルゴリズムで評価します。

{DecimalDigits }

DecimalDigits の MV (11.8.3) を i とする
2つの結果、 i と i を返す

次のプロダクションは、以下のアルゴリズムで評価します。

{DecimalDigits ,}

DecimalDigits の MV を i とする
2つの結果、 i と ∞ を返す

次のプロダクションは、以下のアルゴリズムで評価します。

{DecimalDigits ,DecimalDigits }

最初の DecimalDigits の MV を i とする
2番目の DecimalDigits の MV を j とする
2つの結果、 i と j を返す

21.2.2.8 Atom

引数 direction を使用。

次のプロダクションは、以下のアルゴリズムで評価します。

Atom ::

PatternCharacter

PatternCharacter にマッチする文字を ch とする
文字 ch を含む1要素の CharSet を A とする
CharacterSetMatcher(A, false, direction) をコールし、結果の Matcher を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Atom ::

DotAll が true なら、
1. すべての文字のセットを A とする
1. でなければ、 LineTerminator を除くすべての文字のセットを A とする
CharacterSetMatcher(A, false, direction) をコールし、結果の Matcher を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Atom ::

\AtomEscape

引数 direction で AtomEscape を評価した結果の Matcher を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Atom ::

CharacterClass

CharacterClass を評価して、CharSet A とブール値 invert を取得する
CharacterSetMatcher(A, invert, direction) をコールし、結果の Matcher を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Atom ::

(GroupSpecifier Disjunction )

引数directionを使用してDisjunction を評価し、Matcher mを取得する
Atom の左側にある正規表現全体の左側をキャプチャする括弧の数を parenIndex とします。これは、Atom の前またはそれを囲むAtom :: (GroupSpecifier Disjunction ) 解析ノードの総数
direction と m と parenIndex をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x と c と direction と parenIndex をキャプチャし、パラメータ(y)で呼び出されると次の手順を実行する新しいContinuationを d とする
  1. Assert: y は State
  2. y の captures リストのコピーを cap とする
  3. x の endIndex を xe とする
  4. y の endIndex を ye とする
  5. direction が +1 と等しいなら、
    1. Assert: xe ≦ ye
    2. 要素が Input のインデックス xe からye -1 までの文字である新しいリストを s とする
  6. v. と異なるなら、
    1. Assert: direction は -1 と等しい
    2. Assert: ye ≦ xe
    3. 要素が Input のインデックス ye からxe -1 までの文字である新しいリストを s とする
  7. s を cap[parenIndex + 1] にセットする
  8. State値 (ye, cap) を z とする
  9. c(z) をコールし、その結果を返す
4. m(x, d) をコールし、その結果を返す

次のプロダクションは、以下のアルゴリズムで評価します。

Atom ::

(?:Disjunction )

引数 direction で Disjunction を評価した結果である Matcher を返す

21.2.2.8.1 ランタイムセマンティクス(Runtime Semantics): CharacterSetMatcher ( A, invert, direction )

抽象演算CharacterSetMatcherは、CharSet A、ブールフラグ invert、整数 directionの3つの引数を取り、次の手順を実行します。

A と invert と direction をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x の endIndex を e とする
4. e + direction を f とする
5. f ＜ 0 または f ＞ InputLength なら failure を返す
6. min(e, f) を index とする
7. 文字 Input[index] を ch とする
8. Canonicalize(ch) を cc とする
9. invert が false なら、
  1. Canonicalize(a) が cc であるようなセット A のメンバー a が存在しないなら、failure を返す
10. i. と異なるなら、
  1. Assert: invert は true
  2. Canonicalize(a) が cc であるようなセット A のメンバー a が存在するなら、 failure を返す
11. x の captures リストを cap とする
12. State値 (f, cap) を y とする
13. c(y) をコールし、その結果を返す

21.2.2.8.2 ランタイムセマンティクス(Runtime Semantics): Canonicalize ( ch )

抽象操作Canonicalizeは、文字パラメーターchを受け取り、次のステップを実行します。

IgnoreCase が false なら、 ch を返す
Unicode が true なら、
1. Unicode文字データベースのファイルCaseFolding.txtが、chの単純または一般的なケースフォールディングマッピングを提供するなら、そのマッピングを ch に適用した結果を返す
2. ch を返す
2. と異なるなら、
1. Assert: ch は UTF-16 コードユニット
2. 単一のコードユニット ch で構成される文字列値を s とする
3. this値として s を使用してString.prototype.toUpperCaseのアルゴリズムを実行したときと同じ結果を u とする
4. Assert: Type(u) は String型
5. uが単一のコードユニットで構成されていないなら、chを返す
6. u の単一のコードユニット要素を cu とする
7. chの数値 ≧ 128 で cuの数値＜ 128 なら、chを返す
8. cu を返す

形式(Disjunction) の括弧は、Disjunctionパターンのコンポーネントをグループ化することと、一致結果を保存することの両方の意味があります。結果は、後方参照（\の後にゼロ以外の10進数が続く）で使用するか、置換文字列で参照するか、抽象クロージャと一致する正規表現から配列の一部として返すことができます。括弧のキャプチャ動作を禁止するには、形式(?:Disjunction) を使用します。

形式 (?=Disjunction) は、ゼロ幅の正の先読みを指定します。これが成功するためには、Disjunction内のパターンが現在の位置で一致する必要があります。ただし、現在の位置は後続と一致する前に進めることはできません。 Disjunctionが現在の位置で複数の方法により一致する場合、最初のものだけが試されます。他の正規表現演算子とは異なり、(?= 形式へのバックトラックはありません（この異常な動作はPerlからの継承です）。これは、Disjunctionにキャプチャ括弧が含まれ、パターンの後続にそれらのキャプチャへの後方参照が含まれる場合にのみ問題になります。

例：

/(?=(a+))/.exec("baaabac")

上の例は、最初のbの直後の空の文字列と一致するため、次の配列を返します。

["", "aaa"]

先読みへのバックトラックの欠如を説明するために、以下を考慮してください。

/(?=(a+))a*b\1/.exec("baaabac")

上の例は、次の配列を返します。

["aba", "a"]

次のようにはなりません。

["aaaba", "a"]

フォーム(?!Disjunction）は、ゼロ幅の負の先読みを指定します。これが成功するためには、Disjunction内のパターンが現在の位置で一致しない必要があります。後続と一致する前に、現在の位置を進めることはできません。 Disjunctionにはキャプチャ括弧を含めることができます。ただし、それらへの後方参照はDisjunction自体の中からのみ意味があります。パターンが成功するには負の先読みが失敗する必要があるため、パターンの他の場所からのこれらのキャプチャ括弧への逆参照は常にundefinedを返します。

例：

/(.*?)a(?!(a+)b\2c)\2(.*)/.exec("baaabaac")

aの直後にない正の数nのa、a b、別のn a（最初の\ 2で指定）およびacを探します。 2番目の\ 2は負の先読みの外側にあるため、undefinedと一致します。そのため、常に成功します。よって、式全体が次の配列を返します。

["baaabaac", "ba", undefined, "abaac"]

Unicodeがtrueで、大文字と小文字が区別されないマッチの場合、すべての文字は比較される直前にUnicode標準によって提供される単純なマッピングを使用して、暗黙的に大文字と小文字が区別されます。単純なマッピングは常に単一のコードポイントにマッピングされるため、たとえば、ß（U+00DF）はSSにマッピングされません。ただし、基本ラテン語の範囲外のコードポイントを、たとえばſ（U+017F）からs内の文字にマップする場合があります。 Unicodeがfalseの場合、このような文字はマップされません。これにより、U+017FやU+212AなどのUnicodeコードポイントが/[a-z]/iなどの正規表現と一致しなくなりますが、/[a-z]/uiとは一致します。

21.2.2.8.3 ランタイムセマンティクス(Runtime Semantics): UnicodeMatchProperty ( p )

抽象操作UnicodeMatchPropertyは、Unicodeコードポイントのリストであるパラメーターpを受け取り、次の手順を実行します。

Assert: Unicodeコードポイントのリストp は、表55または表56の「プロパティ名とエイリアス」列にリストされているUnicodeプロパティ名またはプロパティエイリアスと同一
p に対応する「正規プロパティ名」列に示されているプロパティ名を c とする
c のUnicodeコードポイントのリストを返す

実装は、表55と表56にリストされているUnicodeプロパティ名およびエイリアスをサポートする必要があります。相互運用性を確保するために、実装は他のプロパティ名またはエイリアスをサポートしてはいけません。

たとえば、Script_Extensions（プロパティ名）とscx（プロパティエイリアス）は有効ですが、script_extensionsまたはScxは無効です。

リストされたプロパティは、UTS18RL1.2が必要とするスーパーセットを形成します。

表55: 非バイナリUnicodeプロパティエイリアスとその正規プロパティ名
プロパティ名とエイリアス	正規プロパティ名
General_Category gc	General_Category
Script sc	Script
Script_Extensions scx	Script_Extensions

表56: バイナリUnicodeプロパティエイリアスとその正規プロパティ名
プロパティ名とエイリアス	正規プロパティ名
ASCII	ASCII
ASCII_Hex_Digit AHex	ASCII_Hex_Digit
Alphabetic Alpha	Alphabetic
Any	Any
Assigned	Assigned
Bidi_Control Bidi_C	Bidi_Control
Bidi_Mirrored Bidi_M	Bidi_Mirrored
Case_Ignorable CI	Case_Ignorable
Cased	Cased
Changes_When_Casefolded CWCF	Changes_When_Casefolded
Changes_When_Casemapped CWCM	Changes_When_Casemapped
Changes_When_Lowercased CWL	Changes_When_Lowercased
Changes_When_NFKC_Casefolded CWKCF	Changes_When_NFKC_Casefolded
Changes_When_Titlecased CWT	Changes_When_Titlecased
Changes_When_Uppercased CWU	Changes_When_Uppercased
Dash	Dash
Default_Ignorable_Code_Point DI	Default_Ignorable_Code_Point
Deprecated Dep	Deprecated
Diacritic Dia	Diacritic
Emoji	Emoji
Emoji_Component	Emoji_Component
Emoji_Modifier	Emoji_Modifier
Emoji_Modifier_Base	Emoji_Modifier_Base
Emoji_Presentation	Emoji_Presentation
Extended_Pictographic	Extended_Pictographic
Extender Ext	Extender
Grapheme_Base Gr_Base	Grapheme_Base
Grapheme_Extend Gr_Ext	Grapheme_Extend
Hex_Digit Hex	Hex_Digit
IDS_Binary_Operator IDSB	IDS_Binary_Operator
IDS_Trinary_Operator IDST	IDS_Trinary_Operator
ID_Continue IDC	ID_Continue
ID_Start IDS	ID_Start
Ideographic Ideo	Ideographic
Join_Control Join_C	Join_Control
Logical_Order_Exception LOE	Logical_Order_Exception
Lowercase Lower	Lowercase
Math	Math
Noncharacter_Code_Point NChar	Noncharacter_Code_Point
Pattern_Syntax Pat_Syn	Pattern_Syntax
Pattern_White_Space Pat_WS	Pattern_White_Space
Quotation_Mark QMark	Quotation_Mark
Radical	Radical
Regional_Indicator RI	Regional_Indicator
Sentence_Terminal STerm	Sentence_Terminal
Soft_Dotted SD	Soft_Dotted
Terminal_Punctuation Term	Terminal_Punctuation
Unified_Ideograph UIdeo	Unified_Ideograph
Uppercase Upper	Uppercase
Variation_Selector VS	Variation_Selector
White_Space space	White_Space
XID_Continue XIDC	XID_Continue
XID_Start XIDS	XID_Start

21.2.2.8.4 ランタイムセマンティクス(Runtime Semantics): UnicodeMatchPropertyValue ( p, v )

抽象操作UnicodeMatchPropertyValueは、2つのUnicodeコードポイントのリストpとvをパラメーターとして取り、次の手順を実行します。

Assert: pは、表55の「正規プロパティ名」列にリストされているUnicodeコードポイントのリスト
Assert: vは、表57または表58の「プロパティ値とエイリアス」列にリストされているUnicodeプロパティpのプロパティ値またはプロパティ値エイリアスと同一のUnicodeコードポイントのリスト
vに対応する行の正規プロパティ値を value とする
value のUnicode コードポイントリストを返す

実装は、表57および表58にリストされているUnicodeプロパティ値の名前とエイリアスをサポートする必要があります。相互運用性を確保するために、実装は他のプロパティ値の名前またはエイリアスをサポートしてはいけません。

たとえば、XpeoとOld_Persianは有効なScript_Extensions値ですが、xpeoとOld Persianはそうではありません。

このアルゴリズムは、UAX44にリストされている記号値の一致規則とは異なります。大文字と小文字、空白、U+002D（HYPHEN-MINUS）、およびU+005F（LOW LINE）は無視されず、Isプレフィックスはサポートされません。

表57: UnicodeプロパティGeneral_Categoryの値エイリアスと正規値
プロパティ値とエイリアス	正規のプロパティ値
Cased_Letter LC	Cased_Letter
Close_Punctuation Pe	Close_Punctuation
Connector_Punctuation Pc	Connector_Punctuation
Control Cc cntrl	Control
Currency_Symbol Sc	Currency_Symbol
Dash_Punctuation Pd	Dash_Punctuation
Decimal_Number Nd digit	Decimal_Number
Enclosing_Mark Me	Enclosing_Mark
Final_Punctuation Pf	Final_Punctuation
Format Cf	Format
Initial_Punctuation Pi	Initial_Punctuation
Letter L	Letter
Letter_Number Nl	Letter_Number
Line_Separator Zl	Line_Separator
Lowercase_Letter Ll	Lowercase_Letter
Mark M Combining_Mark	Mark
Math_Symbol Sm	Math_Symbol
Modifier_Letter Lm	Modifier_Letter
Modifier_Symbol Sk	Modifier_Symbol
Nonspacing_Mark Mn	Nonspacing_Mark
Number N	Number
Open_Punctuation Ps	Open_Punctuation
Other C	Other
Other_Letter Lo	Other_Letter
Other_Number No	Other_Number
Other_Punctuation Po	Other_Punctuation
Other_Symbol So	Other_Symbol
Paragraph_Separator Zp	Paragraph_Separator
Private_Use Co	Private_Use
Punctuation P punct	Punctuation
Separator Z	Separator
Space_Separator Zs	Space_Separator
Spacing_Mark Mc	Spacing_Mark
Surrogate Cs	Surrogate
Symbol S	Symbol
Titlecase_Letter Lt	Titlecase_Letter
Unassigned Cn	Unassigned
Uppercase_Letter Lu	Uppercase_Letter

表58: UnicodeプロパティScriptおよびScript_Extensionsの値エイリアスと正規値
プロパティ値とエイリアス	正規のプロパティ値
Adlam Adlm	Adlam
Ahom Ahom	Ahom
Anatolian_Hieroglyphs Hluw	Anatolian_Hieroglyphs
Arabic Arab	Arabic
Armenian Armn	Armenian
Avestan Avst	Avestan
Balinese Bali	Balinese
Bamum Bamu	Bamum
Bassa_Vah Bass	Bassa_Vah
Batak Batk	Batak
Bengali Beng	Bengali
Bhaiksuki Bhks	Bhaiksuki
Bopomofo Bopo	Bopomofo
Brahmi Brah	Brahmi
Braille Brai	Braille
Buginese Bugi	Buginese
Buhid Buhd	Buhid
Canadian_Aboriginal Cans	Canadian_Aboriginal
Carian Cari	Carian
Caucasian_Albanian Aghb	Caucasian_Albanian
Chakma Cakm	Chakma
Cham Cham	Cham
Cherokee Cher	Cherokee
Common Zyyy	Common
Coptic Copt Qaac	Coptic
Cuneiform Xsux	Cuneiform
Cypriot Cprt	Cypriot
Cyrillic Cyrl	Cyrillic
Deseret Dsrt	Deseret
Devanagari Deva	Devanagari
Dogra Dogr	Dogra
Duployan Dupl	Duployan
Egyptian_Hieroglyphs Egyp	Egyptian_Hieroglyphs
Elbasan Elba	Elbasan
Elymaic Elym	Elymaic
Ethiopic Ethi	Ethiopic
Georgian Geor	Georgian
Glagolitic Glag	Glagolitic
Gothic Goth	Gothic
Grantha Gran	Grantha
Greek Grek	Greek
Gujarati Gujr	Gujarati
Gunjala_Gondi Gong	Gunjala_Gondi
Gurmukhi Guru	Gurmukhi
Han Hani	Han
Hangul Hang	Hangul
Hanifi_Rohingya Rohg	Hanifi_Rohingya
Hanunoo Hano	Hanunoo
Hatran Hatr	Hatran
Hebrew Hebr	Hebrew
Hiragana Hira	Hiragana
Imperial_Aramaic Armi	Imperial_Aramaic
Inherited Zinh Qaai	Inherited
Inscriptional_Pahlavi Phli	Inscriptional_Pahlavi
Inscriptional_Parthian Prti	Inscriptional_Parthian
Javanese Java	Javanese
Kaithi Kthi	Kaithi
Kannada Knda	Kannada
Katakana Kana	Katakana
Kayah_Li Kali	Kayah_Li
Kharoshthi Khar	Kharoshthi
Khmer Khmr	Khmer
Khojki Khoj	Khojki
Khudawadi Sind	Khudawadi
Lao Laoo	Lao
Latin Latn	Latin
Lepcha Lepc	Lepcha
Limbu Limb	Limbu
Linear_A Lina	Linear_A
Linear_B Linb	Linear_B
Lisu Lisu	Lisu
Lycian Lyci	Lycian
Lydian Lydi	Lydian
Mahajani Mahj	Mahajani
Makasar Maka	Makasar
Malayalam Mlym	Malayalam
Mandaic Mand	Mandaic
Manichaean Mani	Manichaean
Marchen Marc	Marchen
Medefaidrin Medf	Medefaidrin
Masaram_Gondi Gonm	Masaram_Gondi
Meetei_Mayek Mtei	Meetei_Mayek
Mende_Kikakui Mend	Mende_Kikakui
Meroitic_Cursive Merc	Meroitic_Cursive
Meroitic_Hieroglyphs Mero	Meroitic_Hieroglyphs
Miao Plrd	Miao
Modi Modi	Modi
Mongolian Mong	Mongolian
Mro Mroo	Mro
Multani Mult	Multani
Myanmar Mymr	Myanmar
Nabataean Nbat	Nabataean
Nandinagari Nand	Nandinagari
New_Tai_Lue Talu	New_Tai_Lue
Newa Newa	Newa
Nko Nkoo	Nko
Nushu Nshu	Nushu
Nyiakeng_Puachue_Hmong Hmnp	Nyiakeng_Puachue_Hmong
Ogham Ogam	Ogham
Ol_Chiki Olck	Ol_Chiki
Old_Hungarian Hung	Old_Hungarian
Old_Italic Ital	Old_Italic
Old_North_Arabian Narb	Old_North_Arabian
Old_Permic Perm	Old_Permic
Old_Persian Xpeo	Old_Persian
Old_Sogdian Sogo	Old_Sogdian
Old_South_Arabian Sarb	Old_South_Arabian
Old_Turkic Orkh	Old_Turkic
Oriya Orya	Oriya
Osage Osge	Osage
Osmanya Osma	Osmanya
Pahawh_Hmong Hmng	Pahawh_Hmong
Palmyrene Palm	Palmyrene
Pau_Cin_Hau Pauc	Pau_Cin_Hau
Phags_Pa Phag	Phags_Pa
Phoenician Phnx	Phoenician
Psalter_Pahlavi Phlp	Psalter_Pahlavi
Rejang Rjng	Rejang
Runic Runr	Runic
Samaritan Samr	Samaritan
Saurashtra Saur	Saurashtra
Sharada Shrd	Sharada
Shavian Shaw	Shavian
Siddham Sidd	Siddham
SignWriting Sgnw	SignWriting
Sinhala Sinh	Sinhala
Sogdian Sogd	Sogdian
Sora_Sompeng Sora	Sora_Sompeng
Soyombo Soyo	Soyombo
Sundanese Sund	Sundanese
Syloti_Nagri Sylo	Syloti_Nagri
Syriac Syrc	Syriac
Tagalog Tglg	Tagalog
Tagbanwa Tagb	Tagbanwa
Tai_Le Tale	Tai_Le
Tai_Tham Lana	Tai_Tham
Tai_Viet Tavt	Tai_Viet
Takri Takr	Takri
Tamil Taml	Tamil
Tangut Tang	Tangut
Telugu Telu	Telugu
Thaana Thaa	Thaana
Thai Thai	Thai
Tibetan Tibt	Tibetan
Tifinagh Tfng	Tifinagh
Tirhuta Tirh	Tirhuta
Ugaritic Ugar	Ugaritic
Vai Vaii	Vai
Wancho Wcho	Wancho
Warang_Citi Wara	Warang_Citi
Yi Yiii	Yi
Zanabazar_Square Zanb	Zanabazar_Square

21.2.2.9 AtomEscape

引数 direction を使用。 The production

次のプロダクションは、以下のアルゴリズムで評価します。

DecimalEscape

DecimalEscape を評価して整数 n を取得する
Assert: n ≦ NcapturingParens
BackreferenceMatcher(n, direction) をコールし、結果の Matcher を返す

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterEscape

CharacterEscape を評価し、文字 ch を取得する
文字 ch を含む1要素の CharSet を A とする
CharacterSetMatcher(A, false, direction) をコールし、結果の Matcher を返す

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterClassEscape

CharacterClassEscape を評価し、 CharSet A を取得する
CharacterSetMatcher(A, false, direction) をコールし、結果の Matcher を返す

\ の後にゼロ以外の10進数nが続くエスケープシーケンスは、n番目のキャプチャ括弧（21.2.2.1）と一致します。正規表現のキャプチャ括弧がn個未満の場合は、エラーになります。正規表現にn個以上のキャプチャ括弧があり、何もキャプチャしていないためにn番目の括弧がundefinedの場合、後方参照は常に成功します。

次のプロダクションは、以下のアルゴリズムで評価します。

kGroupName

次のように評価します。

GroupNameに含まれるRegExpIdentifierNameのStringValueと等しいStringValueを持つRegExpIdentifierNameのGroupSpecifierのインスタンスを囲むパターンを検索する
Assert:単一のGroupSpecifierが見つかった
配置されたGroupSpecifierの左側にある正規表現全体の左側をキャプチャする括弧の数を parenIndex とする。これは、配置されたGroupSpecifierの前またはそれを囲む Atom :: (GroupSpecifier Disjunction ) 解析ノードの総数
BackreferenceMatcher(parenIndex, direction) をコールし、結果の Matcher を返す

21.2.2.9.1 ランタイムセマンティクス(Runtime Semantics): BackreferenceMatcher ( n, direction )

抽象操作BackreferenceMatcherは、整数nと整数directionの2つの引数を取り、次の手順を実行します。

n と direction をキャプチャし、パラメータ(x, c)で呼び出されると次の手順を実行する新しいMatcherを返す
1. Assert: x は State
2. Assert: c は Continuation
3. x の captures List を cap とする
4. cap[n] を s とする
5. s が undefined なら、 c(x) を返す
6. x の endIndex を e とする
7. s の要素数を len とする
8. e + direction × len を f とする
9. f ＜ 0 または f ＞ InputLength なら failure を返す
10. min(e, f) を g とする
11. i を0からlen-1までの整数としたとき、Canonicalize(s[i]) と Canonicalize(Input[g + i]) が同じ文字値にならないiが存在するなら、failure を返す
12. State値 (f, cap) を y とする
13. c(y) をコールし、その結果を返す

21.2.2.10 CharacterEscape

CharacterEscape プロダクションは、以下のアルゴリズムで評価します。

RegExpUnicodeEscapeSequence

ControlEscape

cControlLetter

0[lookahead ∉ DecimalDigit ]

HexEscapeSequence

IdentityEscape

CharacterEscape の CharacterValue を cv とする
文字値がcvの文字を返す

21.2.2.11 DecimalEscape

DecimalEscape プロダクションは、以下のアルゴリズムで評価します。

NonZeroDigit DecimalDigitsopt

DecimalEscape の CapturingGroupNumber を返す

\の後に最初の桁が0ではない10進数nが続く場合、エスケープシーケンスは後方参照と見なされます。 nが正規表現全体の左角かっこの総数よりも大きい場合はエラーになります。

21.2.2.12 CharacterClassEscape

次のプロダクションは、以下のアルゴリズムで評価します。

0から9までの文字を含む10要素の文字セットを返す

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterClassEscape :: dによって返されるセットに含まれていないすべての文字のセットを返す

次のプロダクションは、以下のアルゴリズムで評価します。

WhiteSpace または LineTerminator プロダクションの右側にある文字を含む文字セットを返す

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterClassEscape :: s によって返されるセットに含まれていないすべての文字のセットを返す

次のプロダクションは、以下のアルゴリズムで評価します。

WordCharacters() によって返されるすべての文字のセットを返す

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterClassEscape :: w によって返されるセットに含まれていないすべての文字セットを返す

次のプロダクションは、以下のアルゴリズムで評価します。

p{UnicodePropertyValueExpression }

UnicodePropertyValueExpression によって返されるCharSetが持つすべてのUnicodeコードポイントを含むCharSetを返す

次のプロダクションは、以下のアルゴリズムで評価します。

P{UnicodePropertyValueExpression }

UnicodePropertyValueExpression によって返されるCharSetに含まれていないすべてのUnicodeコードポイントを含むCharSetを返す

次のプロダクションは、以下のアルゴリズムで評価します。

UnicodePropertyName =UnicodePropertyValue

UnicodePropertyName の SourceText を ps とする
! UnicodeMatchProperty(ps) を p とする
Assert: pは、表55の「プロパティ名とエイリアス」列にリストされているUnicodeプロパティ名またはプロパティエイリアス
UnicodePropertyValue の SourceText を vs とする
! UnicodeMatchPropertyValue(p, vs) を v とする
文字データベース定義に値vのプロパティpが含まれているすべてのUnicodeコードポイントを含むCharSetを返す

次のプロダクションは、以下のアルゴリズムで評価します。

LoneUnicodePropertyNameOrValue

LoneUnicodePropertyNameOrValue の SourceText を s とする
! UnicodeMatchPropertyValue(General_Category, s) が、表57の「プロパティ値とエイリアス」列にリストされているUnicode一般カテゴリまたは一般カテゴリエイリアスの名前であるUnicodeコードポイントのリストと同一なら、
1. 文字データベース定義に値sのプロパティ"General_Category"が含まれているすべてのUnicodeコードポイントを含むCharSetを返返す
! UnicodeMatchProperty(s) を p とする
Assert: p は、表56の「プロパティ名とエイリアス」列にリストされているバイナリUnicodeプロパティまたはバイナリプロパティエイリアス
文字データベース定義に値"True"のプロパティpが含まれているすべてのUnicodeコードポイントを含むCharSetを返す

21.2.2.13 CharacterClass

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterClass ::

[ClassRanges ]

ClassRanges を評価し、 CharSet A を取得する
2つの結果 A と false を返す

次のプロダクションは、以下のアルゴリズムで評価します。

CharacterClass ::

[^ClassRanges ]

ClassRanges を評価し、 CharSet A を取得する
2つの結果 A と true を返す

21.2.2.14 ClassRanges

次のプロダクションは、以下のアルゴリズムで評価します。

ClassRanges ::

empty CharSet を返す

次のプロダクションは、以下のアルゴリズムで評価します。

ClassRanges ::

NonemptyClassRanges

NonemptyClassRanges の評価結果である CharSet を返す

21.2.2.15 NonemptyClassRanges

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtom

ClassAtom 評価した結果である CharSet を返す

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtom NonemptyClassRangesNoDash

ClassAtom 評価して、 CharSet A を取得する
NonemptyClassRangesNoDash 評価して、 CharSet B を取得する
A and B 和集合を返す

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtom -ClassAtom ClassRanges

最初の ClassAtom 評価して、 CharSet A を取得する
2番目の ClassAtom 評価して、 CharSet B を取得する
ClassRanges 評価して、 CharSet C を取得する
CharacterRange(A, B) をコールし、結果の CharSet を D とする
D と C 和集合を返す

21.2.2.15.1 ランタイムセマンティクス(Runtime Semantics): CharacterRange ( A, B )

抽象操作CharacterRangeは、2つのCharSetパラメーターAおよびBを取り、次の手順を実行します。

Assert: A と B は、それぞれ1文字だけが含まれている
CharSet A の1文字を a とする
CharSet B の1文字を b とする
a の文字値を i とする
b の文字値を j とする
Assert: i ≦ j
i から j までの番号が付けられたすべての文字を含むセットを返す

21.2.2.16 NonemptyClassRangesNoDash

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtom

ClassAtom 評価した結果である CharSet を返す

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtomNoDash NonemptyClassRangesNoDash

ClassAtomNoDash 評価して、 CharSet A を取得する
NonemptyClassRangesNoDash 評価して、 a CharSet B を取得する
A and B の和集合を返す

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtomNoDash -ClassAtom ClassRanges

ClassAtomNoDash 評価して、 a CharSet A を取得する
ClassAtom 評価して、 CharSet B を取得する
ClassRanges 評価して、 CharSet C を取得する
CharacterRange(A, B) をコールし、その結果の CharSet を D とする
D と C の和集合を返す

ClassRangesは、ダッシュで区切られた単一のClassAtomおよび / または2つのClassAtomの範囲に展開できます。後者の場合、ClassRangesには、最初のClassAtomと2番目のClassAtomの間のすべての文字が含まれます。 ClassAtomが単一の文字を表していない場合（たとえば、1つが\wの場合）、または最初のClassAtomの文字値が2番目のClassAtomの文字値より大きい場合はエラーが発生します。

パターンが大文字と小文字を区別しない場合でも、範囲の両端の大文字と小文字は、どの文字が範囲に属するかを決定する上で重要です。したがって、たとえば、パターン /[E-F]/i は文字 E、F、e、f に一致し、パターン /[E-f]/i はUnicode基本ラテンブロックのすべての大文字と小文字に一致します。記号 [、\、]、^、_、 ` も同様です。

- 文字は文字通りに扱うことも、範囲を示すこともできます。 ClassRangesの最初または最後の文字、範囲指定の開始または終了制限であるか、範囲指定の直後である場合は、文字通りに扱われます。

21.2.2.17 ClassAtom

次のプロダクションは、以下のアルゴリズムで評価します。

単一の文字 - U+002D (HYPHEN-MINUS)を含む CharSet をを返す

次のプロダクションは、以下のアルゴリズムで評価します。

ClassAtomNoDash

ClassAtomNoDash 評価した結果である CharSet を返す

21.2.2.18 ClassAtomNoDash

次のプロダクションは、以下のアルゴリズムで評価します。

SourceCharacter one of \ or ] or -

SourceCharacter と一致する文字を含む CharSet を返す

次のプロダクションは、以下のアルゴリズムで評価します。

\ClassEscape

ClassEscape 評価した結果である CharSet を返す

21.2.2.19 ClassEscape

ClassEscape プロダクションは、以下のアルゴリズムで評価します。

CharacterEscape

ClassEscape の CharacterValue を cv とする
文字値が cv の文字を c とする
単一の文字 c を含む CharSet を返す